# Une IA pour le Morpion (Algorithme MinMax)

L'algorithme MinMax est un algorithme qui permet à un ordinateur de jouer à un jeu à somme nulle (c'est-à-dire où le gain d'un joueur entraîne la perte de l'autre) et à information complète (l'intégralité du jeu est connu par les deux joueurs) comme le morpion, les échecs, etc.

On peut voir un jeu comme le morpion sous la forme d'un arbre : chaque sommet représente une position du jeu, et les arêtes représentent les coups possibles à jouer.

Le principe est alors de parcourir cet arbre, en attribuant un score à chacune des positions.
Ce score représente l'issue de la partie si l'adversaire joue parfaitement bien.

Par exemple, au morpion, si une position a un score de 1, cela signifie que c'est le joueur 1 qui va gagner, s'il joue parfaitement bien, bien sûr.

## Représentation du Jeu

On attribue des numéros aux joueurs, le joueur qui commence est le joueur `1`, et l'autre, le joueur `-1`.

Le plateau est représenté par un tuple de la forme `((0, 0, 1), (0, -1, 1), (1, -1, 0))` par exemple, où chaque élément du tuple représente l'état de la case qui correspond.

Voilà quelques fonctions qui représentent le morpion.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.collections import LineCollection

def morpion_initial(dim=3):
 """ 
 Crée un jeu de morpion vide de taille dim x dim.
 """
 return tuple(tuple(0 for i in range(dim)) for j in range(dim))

def gagnant(position, joueur):
 """ 
 Renvoie True si le joueur gagne et False sinon
 """
 dim = len(position)
 a = np.array(position)
 
 return np.any(np.sum(a == joueur, axis=0) == dim) \
 or np.any((np.sum(a == joueur, axis=1) == dim)) \
 or np.sum(np.diag(a == joueur)) == dim \
 or np.sum(np.diag(np.fliplr(a == joueur))) == dim

def score(position):
 """ 
 Renvoie le score d'une position : 1 si le joueur 1 gagne, et -1 si le joueur -1 gagne.
 Si personne ne gagne, la fonction renvoie 0 (que la partie soit finie ou non.)
 """
 return -1 * gagnant(position, -1) + 1 * gagnant(position, 1)
 
def coups_possibles(position, joueur):
 """
 Renvoie l'ensemble des positions qu'un joueur peut atteindre dans une position donnée.
 """
 coups = []
 
 for x in range(len(position)):
 for y in range(len(position)):
 if position[x][y] == 0:
 coups.append(jouer(position, x, y, joueur))

 return coups

def jouer(position, x, y, joueur):
 """
 Renvoie la position obtenue après que le joueur `joueur` a joué en (x, y).
 """
 return tuple(position[i] if i != x else position[i][:y] + (joueur,) + position[i][y+1:] \
 for i in range(len(position)))

def afficher_morpion(position):
 """
 Affiche la position.
 """
 dim = len(position)
 position = np.array(position)
 joueur1 = np.where(position == 1)
 joueur2 = np.where(position == -1)
 
 lines = [((i, 0), (i, dim)) for i in range(dim + 1)] \
 + [((0, i), (dim, i)) for i in range(dim + 1)]
 
 fig, ax = plt.subplots()
 ax.add_collection(LineCollection(lines, colors="black"))
 ax.set_xlim(-0.01, dim+0.01)
 ax.set_ylim(-0.01, dim+.01)
 ax.set_aspect(1)
 ax.axis("off")
 
 for x, y in zip(joueur1[0], joueur1[1]):
 ax.plot((x+0.1,x+0.9), (y+0.1,y+0.9), color="black", lw=2)
 ax.plot((x+0.9,x+0.1), (y+0.1,y+0.9), color="black", lw=2)
 
 for x, y in zip(joueur2[0], joueur2[1]):
 cc = plt.Circle((x + 0.5, y + 0.5), 0.45, fill=False, color="#f70077", lw=2)
 ax.add_artist(cc)

In [None]:
pos = ((1, 0),(0, 1))
score(pos)
afficher_morpion(pos)

Par exemple, voilà une position où le joueur 1 a gagné :

In [None]:
position = ((1, -1, -1), (0, 1, 0), (1, -1, 1))
afficher_morpion(position)

**Question.** En utilisant la fonction `coups_possibles`, afficher l'ensemble des positions que l'on peut obtenir en partant de la position représentée par le tuple `((1, 0, 0), (0, -1, 0), (1, 0, 0))`, sachant que c'est ici au joueur `-1` (avec les ronds) de joueur.

## Arbre du Jeu

Comme dit au dessus, l'arbre du jeu de morpion est un arbre dont la racine est la position initiale du jeu.
Pour des raisons de place en mémoire et de difficulté de la représentation, on va se contenter de représenter l'arbre du jeu de morpion de taille 2x2.

La fonction `arbre_morpion` calcule cet arbre.

In [None]:
import networkx as nx
from hierarchy import hierarchy_pos


def arbre_morpion(dimension):
 sommets = [(0, morpion_initial(dimension), 1)]
 aretes = []
 i = 0
 
 a_parcourir = sommets.copy()
 
 while a_parcourir:
 sommet = a_parcourir.pop()
 _, position, joueur = sommet
 
 sommets.append(sommet)
 if score(position) == 0: 
 for position in coups_possibles(position, joueur):
 i += 1
 nouveau_sommet = (i, position, -joueur)

 a_parcourir.append(nouveau_sommet)
 aretes.append((sommet, nouveau_sommet))
 
 G = nx.DiGraph()
 G.add_nodes_from(sommets)
 G.add_edges_from(aretes)
 
 return G

**Quesiton.** Commenter le fonctionnement de cet algorithme. Quelle différence observez-vous avec les algorithmes classiques de parcours en largeur dans un graphe ?

Remarquez bien ici que certains sommets représentent la même position, mais on considère qu'ils sont différents car le chemin parcouru pour les obtenir est différent (si les coups sont joués dans un ordre différents, on peut obtenir la même position mais avoir joué des coups différents).

In [None]:
# calcul de l'arbre
G_morpion = arbre_morpion(2)

# affichage de l'arbre
fig, ax = plt.subplots(figsize=(25,10))

# position des sommets de l'arbre
pos = hierarchy_pos(G_morpion, (0, ((0,0),(0,0)), 1))

# couleurs des noeuds
couleurs_map = ["pink" if s[2] == 1 else "turquoise" for s in G_morpion.nodes()]

# calcul des labels
d = {1: "X", -1: "O", 0: "_"}
labels= {s: "\n".join(map(lambda l: " ".join(map(lambda x: d[x],l)),s[1])) for s in G_morpion.nodes()}

# affichage
nx.draw(G_morpion, pos, edgecolors="black", node_color=couleurs_map, 
 labels=labels, with_labels=True, node_size=1200, node_shape="s")

Chaque sommet représente une position, et on passe d'une position à une autre en jouant un coup.
Les sommets représentés en rose sont les sommets où c'est au tour du joueur 1, et ceux en turquoise ceux où c'est le tour du joueur -1.

Vous remarquez bien que chacun des niveaux de profondeur dans le graphe représente le tour d'un joueur.

On remarque également qu'un chemin dans l'arbre s'arrête quand un des deux joueurs a gagné.

**Question.** À partir de l'arbre ci-dessus, commentez les issues possibles d'une partie sur une grille de taille 2x2. Est-ce qu'une partie de ce jeu vous semble intéressante ?

**Remarque.** On s'est ici limités à un arbre pour le morpion de taille $2 \times 2$, car ici l'arbre a déjà $41$ sommets.

En taille $3 \times 3$, l'arbre du jeu est beaucoup plus grand car il a de l'ordre de $100000$ sommets.
Il est donc environ $2500$ fois plus grand, ce qui s'explique par deux choses : l'arbre est plus profond, et il y a plus de branchements à chaque niveau.

## Algorithme MinMax

### Évaluation d'une Position

Comme dans la plupart des IA qui jouent à des jeux, l'élément le plus important consiste à évaluer "qui gagne" dans une position donnée.

Intuitivement, c'est ce que l'on fait quand on joue : on imagine les coups que l'on va jouer, puis on regarde si on a une chance de gagner après ce coup là.
Après avoir passé en revue tous les coups possibles, on peut faire un choix éclairé.

Et bien la machine fait de même : elle évalue la position pour savoir qui gagne, perd, ou si c'est match nul, puis elle prend une décision basé là dessus.

### Principe de l'Algorithme MinMax

L'algorithme MinMax est un algorithme d'évaluation de position.

Le principe est simple : on part des feuilles de l'arbre, pour lesquelles l'évaluation est facile, soit un joueur a gagné, et on attribue à la feuille le score de `1` ou `-1`, soit c'est un match nul, et le score est alors `0`.

Puis on remonte dans l'arbre, et pour un sommet interne de l'arbre, il y a deux possibilités :

* soit c'est au joueur 1 de jouer, et le score que l'on attribue au sommet est le **maximum** des scores de ses sommets enfants ;

* soit c'est au joueur -1 de jouer, et le score que l'on attribue au sommet est le **minimum** des scores de ses sommets enfants.

Intuitivement, cela correspond à répondre à la question "si je joue le meilleur coup, et que mon adversaire joue les meilleurs coups, quelle est l'issue de la partie ?"

On peut donc définir un algorithme récursif de score, que l'on appellera `minmax` :
* si la partie est terminée, on associe le score qui correspond à la position (1 si le joueur 1 gagne, -1 si le joueur -1 gagne, et 0 sinon) ;
* sinon, si c'est au joueur 1 de jouer, `minmax(sommet) = max([minmax(sommet_enfant) pour chaque sommet enfant])` ;
* sinon, si c'est au joueur -1 de jouer, `minmax(sommet) = min([minmax(sommet_enfant) pour chaque sommet enfant])`.

### Mais si l'arbre est trop grand ?

On vient de voir que stocker tout l'arbre en mémoire semble compliqué, car il y a beaucoup de sommets... mais comment faire alors pour quand même trouver une solution à ce jeu, qui semble, de plus, plutôt simple ?

En fait, et c'est là une idée cruciale, on peut explorer l'arbre **sans garder tout l'arbre en mémoire**.
Vous remarquerez en effet facilement que, pour passer d'un sommet à un autre, il suffit de connaître la position et de connaître les règles pour pouvoir calculer les coups que l'on a le droit de jouer.
Et explorer $100000$ sommets, même si c'est beaucoup, c'est encore envisageable.


**Question.** Implémenter l'algorithme MinMax décrit ci-dessus. On définira une fonction récursive `minmax` qui prend en argument une position et le joueur dont c'est le tour, et qui renvoie le score associé à la position en utilisant l'algorithme MinMax décrit ci-dessus (et dans le cours).

In [None]:
def minmax(position, joueur):
 # implémentez l'algorithme ici

**Question.** Calculez le score du jeu de morpion en taille $3 \times 3$ à partir de la position initiale. Que dire alors du jeu de morpion ?

## Élagage AlphaBeta

Comme vous pouvez le constater, évaluer une position prend quand même du temps.

En fait, on n'a pas besoin d'explorer l'arbre jusqu'au bout à chaque fois : parfois, on sait qu'un coup ne vaut pas le coup car on a déjà exploré un meilleur coup pour l'adversaire, et on peut donc l'ignorer.
C'est le principe de l'**élagage alpha-beta**.

**Question.** Référez vous au cours pour implémenter la fonction `alpha_beta`, qui exécute l'algorithme MinMax avec l'élagage AlphaBeta.

In [None]:
def alpha_beta(position, joueur, alpha=-np.inf, beta=np.inf):
 # implémentez l'algorithme ici

## Faisons jouer la machine !

**Question.** En utilisant la fonction `alpha_beta`, définir une fonction qui fait jouer deux ordinateurs l'un contre l'autre, en affichant les coups joués.

In [None]:
def autoplay(dimension):
 # implémentez la fonction ici

In [None]:
autoplay(3)